4.5 Sprachabhängiges Vergleichen mit der Collator-Klasse 

Für die deutsche Sprache gilt, dass »ä« zwischen »a« und »b« äquivalent zu »ae« einsortiert wird und nicht so, wie Unicode das Zeichen einordnet: hinter dem »z«. Ähnliches gilt für das »ß«. Auch das Spanische hat seine Besonderheiten im Alphabet. Hier gelten das »ch« und das »ll« als einzelner Buchstabe, die passend einsortiert werden müssen.
Damit Java für alle Landessprachen die String-Vergleiche korrekt durchführen kann, bietet die Bibliothek Collator-Klassen.
4.5.1 Die Klasse Collator 

Mit den java.text.Collator-Objekten ist es möglich, Zeichenketten nach jeweils landesüblichen Kriterien zu vergleichen. So werden die Sprachbesonderheiten jedes Landes beachtet. Ein Collator-Objekt wird vor seiner Benutzung mit getInstance() erzeugt.
| Beispiel Das »Ä« liegt zwischen »A« und »B«: |
Die Fabrikmethode getInstance() nimmt optional einen Ländercode als Locale-Objekt an. Explizit setzt getInstance(Locale.GERMAN) das Vergleichsverfahren für deutsche Zeichenketten; die Länderbezeichnung ist in diesem Fall eine Konstante der Locale-Klasse. Standardmäßig nutzt getInstance() die aktuelle Einstellung des Systems.
abstract class java.text.Collator implements Comparator<Object>, Cloneable |
- static Collator getInstance( Locale desiredLocale ) Liefert einen Collator für die gewünschte Sprache.
- abstract int compare( String source, String target ) Vergleicht die beiden Zeichenketten auf ihre Ordnung. Der Rückgabewert ist entweder <0, 0 oder >0.
- int compare( Object o1, Object o2 ) Vergleicht die beiden Argumente auf ihre Ordnung. Ruft compare((String)o1, (String)o2) auf.
Vergleichsarten
Die Collator-Klasse besitzt sinnvolle Methoden, die über die Vergleichsfunktionalität der String- und StringBuffer/StringBuilder-Klasse hinausgehen. So ist es über die Funktion setStrength() möglich, unterschiedliche Vergleichsarten einzustellen. Die Collator-Klasse deklariert vier Strenge-Konstanten:
- PRIMARY. Erkennt Unterschiede im Grundzeichen, sodass »a« kleiner »b« ist. Es gibt keine Unterschiede durch Akzente und Umlaute, so dass »a«, »ä« und »á« gleich sind.
- TERTIARY. Unterscheidet in der Groß- und Kleinschreibung; bei PRIMARY und SECONDARY die Schreibweise egal, und da war »a« gleich »A«.
- IDENTICAL. Wirklich alle Unicode-Zeichen sind anders. Waren unter den ersten drei Konstanten die Buchstaben '\u0004' und '\u0006' gleich, sind sie unter IDENTICAL wirklich unterschiedlich.
Was die einzelnen Werte für jede Sprache bedeuten, beschreibt der Unicode-Standard präzise. Beispielsweise erkennt der tolerante Vergleich »abc« und »ABC« als gleich. Ohne explizit gesetztes setStrength() ist der Standard TERTIARY.
Listing 4.4 CollatorStrengthDemo.java
import java.util.*; import java.text.*; class CollatorStrengthDemo { public static void comp( Collator col, String a, String b ) { if ( col.compare( a, b ) < 0 ) System.out.println( a+" < "+b ); if ( col.compare( a, b ) == 0 ) System.out.println( a+" = "+b ); if ( col.compare( a, b ) > 0 ) System.out.println( a+" > "+b ); } public static void main( String[] args ) { Collator col = Collator.getInstance( Locale.GERMAN ); System.out.println( "Strength = PRIMARY" ); col.setStrength( Collator.PRIMARY ); comp( col, "abc", "ABC" ); comp( col, "Quäken", "Quaken" ); comp( col, "boß", "boss" ); comp( col, "boß", "boxen" ); System.out.println( "\nStrength = SECONDARY" ); col.setStrength( Collator.SECONDARY ); comp( col, "abc", "ABC" ); comp( col, "Quäken", "Quaken" ); comp( col, "boß", "boss" ); comp( col, "boß", "boxen" ); System.out.println( "\nStrength = TERTIARY" ); // col.setStrength( Collator.TERTIARY ); // Standard comp( col, "abc", "ABC" ); comp( col, "Quäken", "Quaken" ); comp( col, "boß", "boss" ); comp( col, "boß", "boxen" ); } }
Die Ausgabe ist folgende:
Strength = PRIMARY abc = ABC Quäken = Quaken boß = boss boß < boxen Strength = SECONDARY abc = ABC Quäken > Quaken boß = boss boß < boxen Strength = TERTIARY abc < ABC Quäken > Quaken boß > boss boß < boxen
4.5.2 Effiziente interne Speicherung für die Sortierung 

Obwohl sich mit der Collator-Klasse sprachspezifische Vergleiche korrekt umsetzen lassen, ist die Geschwindigkeit gegenüber einem normalen String-Vergleich geringer. Daher bietet die Collator-Klasse die Objektmethode getCollationKey() an, die ein CollationKey-Objekt liefert, das schnellere Vergleiche zulässt.
Collator col = Collator.getInstance( Locale.GERMAN ); CollationKey key1 = col.getCollationKey( "ätzend" ); CollationKey key2 = col.getCollationKey( "Bremsspur" );
Durch CollationKeys lässt sich die Performance bei Vergleichen zusätzlich verbessern, da der landesspezifische String in einen dazu passenden, normalen Java-String umgewandelt wird, der dann schneller gemäß der internen Unicode-Zeichenkodierung verglichen werden kann. Dies bietet sich zum Beispiel beim Sortieren einer Tabelle an, wo mehrere Vergleiche mit dem gleichen String durchgeführt werden müssen. Der Vergleich wird mit compareTo(Collation-Key) durchgeführt.
final class java.text.CollationKey implements Comparable<CollationKey> |
- int compareTo( Object o ) Vergleicht den aktuellen CollationKey mit dem angegebenen Objekt. Ruft lediglich compareTo((CollationKey)o) auf.
abstract class java.text.Collator implements Comparator<Object>, Cloneable |




